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摘要 : 【 目的 ] 通过 实验 对 比分 析 ， 比 较 不 同 停 用 词 表 对 于 不 同类 型 的 文本 数据 的 作用 效果 ,对 停 用 词 表 的 构建 
与 使 用 提供 参考 意见 。[ 方法 ] 选取 百度 停 用 词 表 、 哈 尔 演 工业 大 学 停 用 词 表 以 及 四 川 大 学 机 咒 智 能 实验 室 停 用 
词 表 , 基于 三 个 不 同 语料库 运用 汉语 分 词 技术 、TF-IDF 特征 评估 也 数 以 及 VSM 模型 进行 文本 处 理 , 并且 采 用 
Java 编写 的 K-means 算法 进行 聚 类 实验 , 通过 准确 率 P、 召回 率 R 和 了 Fl 三 个 评价 指标 对 不 同 聚 类 结果 进行 效果 
评估 。[ 结果 ] 不 同 停 用 词 表 对 于 不 同类 型 的 文本 数据 作用 效果 差异 明显 , 词 表 的 长 度 、 内 容 结构 是 影响 作用 效 
果 的 直接 因素 , 其 中 两 字 停 用 词 作用 效果 最 为 明显 。[ 局 限 】 实验 文 本 类 型 及 数量 有 限 ,同时 对 于 不 同 停 用 词 表 
仅 在 词语 数量 及 内 容 上 做 了 简单 的 分 析 比 较 , 未 对 停 用 词 按照 类 别 分 类 进行 实验 分 析 。[ 结论 】 停 用 词 表 对 于 
文本 聚 类 准确 度 有 很 大 的 影响 ,构建 或 选取 适宜 的 中 文 停 用 词 表 极 为 重要 。 同 时 ,过度 增加 停 用 词 的 数量 并 不 
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在 信息 迅猛 发 展 的 互联 网 时 代 ,， 对 庞大 信息 量 的 
处 理 与 利用 使 得 文本 挖掘 这 一 技术 受到 广泛 关注 。 
1995 年 , Feldman 等 提出 文本 挖掘 这 个 概念 站， 随后 
Ahonen- Myka 等 将 数据 挖 气 技 术 直 接 用 于 经 过 预 处 
理 的 文本 信息 , 同时 指出 文本 预 处 理 对 挖掘 过 程 的 效 
率 至 关 重 要 钼 。 文 本 预 处 理 一 般 要 占据 文本 挖掘 大 部 
分 的 时 间 , 对 于 中 文 文本 而 言 ， 这 个 过 程 包含 中 文 分 
词 处 理 , 去 停 用 词 , 特征 提取 以 及 空间 问 量 表示 这 几 
个 步 又, 因此 停 用 词 的 研究 具有 重要 意义 。 

停 用 词 最 早起 源 于 信息 检索 ，Luhn 在 信息 检索 
的 研究 中 发 现 部 分 词语 出 现 频率 很 高 但 检索 效果 却 
较 差 中 ,他 率先 提出 用 噪声 来 表示 这 些 词语 四， 即 为 停 
用 词 的 锥 形 。 在 随后 的 研究 中 ,有 学 者 通过 统计 研究 
发 现在 英文 文献 中 最 常 出 现 的 10 个 词 条 的 频次 占 一 


篇 文本 总 词 条 频次 的 20%-30%5， 而 Frakes 等 在 信息 
检索 的 研究 中 认为 在 自动 索引 阶段 提早 考虑 消除 出 现 
频率 过 高 的 词语 可 以 提高 检索 速度 , 减少 检索 存储 空 
间 并 且 不 会 降低 检索 结果 的 准确 性 因此，Lo 等 将 
停 用 词 定 义 为 经 常 出 现在 文本 中 但 对 信息 检索 没有 帮 
BOMBA BRAS, 即 , 在 基于 词 的 检索 系统 中 ， 
停 用 词 是 指出 现 频率 较 高 、 没 有 太 大 检索 意义 的 词 ， 
mi, eS AR, oP EE 在 自动 问答 系统 中 , 停 用 词 
因 其 问题 的 不 同 而 动态 变化 在 支持 向 量 机 的 自动 
分 类 中 则 是 指 没有 实际 意义 的 虚词 和 类 别 色彩 不 强 的 
RHEU, 在 文本 挖掘 中 , 停 用 词 的 判断 更 侧重 于 其 
是 否 能 够 表示 文本 特征 。 

停 用 词 在 文本 处 理 过 程 中 会 存在 很 大 的 干扰 性 ， 
不 仅 携带 较 少 的 文本 信息 ,还 会 对 其 他 词语 产生 一 定 
的 抑制 作用 , 很 大 程度 上 影响 文本 人 处理 效率 和 精准 
性 。Yang 和 Pedersen 认为 , 将 停 用 词 按 其 出 现 的 频数 
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面向 专利 预警 的 中 文 文本 学 习 研 究 ”( 项 目 编号 : BK20130587) 的 研究 成 果 之 一 。 


降序 排列 , 用 前 10 个 停 用 词 消减 特征 向 量 , 不 会 产生 
负面 影响 ; 用 前 100 个 停 用 词 消减 特征 向 量 产生 的 负 
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好 ， 而 传统 的 主题 分 类 停 用 词 表 对 于 情感 分 类 帮助 不 
K, 可 以 得 出 构建 或 选择 精准 的 停 用 词 表 往 往 会 起 到 


面 效果 很 小 mm。 Silva 等 也 通过 实验 验证 了 去 除 停 用 记 
可 以 在 很 大 程度 上 降低 特征 向 量 的 维度 并 且 提高 文本 
分 类 的 准确 性 [J。 因 此 ， 去 除 停 用 词 在 文本 预 处 理 过 
程 中 十 分 重要 。 


事半功倍 的 效果 。 

目前 主流 的 通用 中 文 停 用 词 表 有 百度 停 用 词 表 、 
哈尔滨 工业 大 学 停 用 词 表 以 及 四 川 大 学 机 器 智能 实验 
室 停 用 词 表 ， 鉴 于 去 除 停 用 词 对 于 分 类 所 需 的 特征 向 


目前 ， 可 以 通过 构建 停 用 词 表 去 除 停 用 词 。 停 用 
词 表 有 通用 停 用 词 表 与 专用 停 用 词 表 之 分 , 也 有 学 者 
将 停 用 词 分 为 全 停 用 词 (True Full-stop Words) 和 半 停 
用 词 (Semi-stop Words)i1， 其 来 源 有 人 工 构造 与 基于 
统计 的 自动 学 习 两 种 方式 叫 。 Luhn 提出 “ 词 条 的 区 分 能 
力 ” 这 一 概念 , 成 为 人 工 构 造 方法 常用 的 判断 标准 中 
Van Rijsbergen 利用 统计 学 的 方法 构造 出 包含 250 个 词 
条 的 停 用 词 表 0 Fox 也 在 Brown Corous 的 基础 上 统 
计 分 析出 适用 于 普通 英文 文本 的 停 用 词 表 059。 

基于 统计 的 自动 学 习 方 法 是 指 通过 不 断 地 标记 簿 
选 ,从 文本 语料库 中 提取 出 高 频 词 语 ， 随后 进行 人 工 
判定 。 现 在 较为 成 熟 的 停 用 词 识别 算法 有 : 文本 频率 、 
nT. RHE, CHT 统计 等 (1。 文 献 [18] 提 到 一 
种 依据 联合 炉 选取 停 用 词 的 方法 ; 文献 [19] 提 出 一 种 
基于 统计 和 语言 学 结合 的 停 用 词 选取 方法 ;，Lo 等 设 
计 了 一 种 基于 词 条 的 随机 抽样 的 抽取 方法 , 并 指出 最 
有 效 的 停 用 词 表 是 经 典 停 用 词 表 与 新 方法 自动 抽取 的 
停 用 表 的 融合 号 ; Zou 等 提出 一 种 基于 统计 和 信息 论 模 
型 的 停 用 词 选取 方法 P; 在 中 文 情感 分 类 中 , 也 构建 
出 5 种 包含 不 同 词性 的 停 用 词 表 ?中 。 基 于 统计 的 自动 
学 习 方 法 已 成 为 停 用 词 表 构建 的 主要 方法 ,同时 加 以 
人 工 判定 的 辅助 ,并 取得 不 错 的 效果 。 

当前 , 专业 停 用 词 表 的 研究 也 受到 关注 ， 如 医学 、 
化 学 、 计 算 机 等 领域 ， 主 要 通过 对 该 领域 大 量 文本 进 
行 检查 分 析 , 经 过 概率 分 析 及 内 容 分 析 予 以 提取 中 。 
但 该 方法 具有 一 定 的 局 限 性 ， 当 文本 分 布 不 均 时 准确 
率 不 高 。Makrehchi 等 为 此 提出 一 种 利用 参数 和 输入 比 
较 敏 感 的 分 类 器 来 判别 停 用 词 内 容 改 变 对 分 类 结果 的 
影响 ,从 而 确 定 停 用 词 表 的 内 容 广 ]。 

英文 停 用 词 表 的 研究 已 取得 一 定 成 果 ， 而 中 文 停 
用 词 表 由 于 起 步 时 间 较 晚 ， 目 前 深入 的 研究 还 较 少 ， 
暂 未 得 到 广泛 认可 的 停 用 词 表 。 文 献 [24] 分 别 比较 去 
除 不 同 词性 词语 的 停 用 词 表 对 中 文 情 感 分 类 的 影响 ， 
发 现 使 用 去 除 形容 词 、 副 词 及 动词 的 停 用 词 表 效 果 最 


量 集 及 分 类 效果 有 很 大 的 影响 ， 因 此 本 文 主要 目的 在 
于 利用 多 个 不 同 的 中 文 文本 语料库 , 采用 只 类 算法 对 
常用 的 停 用 词 词 表 进 行 实验 分 析 ,， 旨 在 对 不 同 停 用 词 
表 的 适用 范围 及 使 用 效率 进行 比较 研究 , 找 出 不 同 领 
域 文本 信息 处 理 构建 、 选 择 和 使 用 停 用 词 词 表 的 依据 
和 准则 。 


2 实验 过 程 准备 


21 实验 过 程 
本 次 实验 由 4 部 分 组 成 , 分 别 为 文本 收集 、 文 本 
处 理 、 聚 类 处 理 以 及 效果 评估 ,具体 流程 如 图 1 所 示 。 
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图 1 实验 流程 


实验 采用 三 个 不 同 的 中 文 语料库 , 分 别 是 搜狗 实 
验 室 的 搜狐 新 闻 数据 ”7 复旦 大 学 计算 机 信息 与 技 
术 系 国际 数据 库 中 心 自然 语言 处 理 小 组 提供 的 复旦 文 
本 语料库 咏 1， 以 及 文献 [30] 提 及 的 中 文 文本 分 类 
语料库 1 这 三 个 语料库 的 文本 质量 较 高 ,类 型 齐全 ， 
覆盖 面 广 。 在 文本 处 理 过程 中 , 分 词 处 理 时 采用 的 是 
由 中 国 科学 院 计算 技术 研究 所 开发 的 汉语 词法 分 析 系 
统 ICTCLAS; 选取 主流 且 应 用 范围 较 广 的 停 用 词 表 ， 
分 别 为 百度 停 用 词 表 、 哈 尔 滨 工业 大 学 停 用 词 表 以 及 
四 川 大 学 停 用 词 表 中 。 同 时 在 特征 选取 中 采用 
TF-IDF 评估 函数 , 利用 VSM 模型 对 文本 进行 向 量 表 
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示 。 在 聚 类 处 理 过 程 中 , 采用 Java 编写 的 较为 简单 高 
效 的 K-means 算法 , 运用 基于 人 工 标准 的 评价 方法 ， 
利用 准确 率 POPrecision) 、 召 回 率 R(Recall) 以 及 
F1G1-measure) 三 个 指标 对 分 类 效果 进行 综合 评价 09。 

实验 文本 数据 从 语料库 中 随机 抽样 选取 , 在 各 语 
料 库 中 的 经 济 、IT、 军 事 、 体 育 和 艺术 这 5 大 类 中 抽 
取 序 号 能 被 5 整除 的 文本 ,并 为 其 重新 标号 , 每 一 个 
语料库 各 抽取 640 个 文本 ,如 表 1 所 示 。 测 试 文本 数 
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大 学 停 用 词 表 两 字 词 数量 相近 ,重合 率 约 为 50%, 在 
两 字 词 上 的 差异 较 大 ; 百度 停 用 词 表 和 哈尔滨 工业 
大 学 停 用 词 表 有 较 高 的 词语 重合 度 ， 其 主要 差异 在 
于 哈尔滨 工业 大 学 停 用 词 表 包含 的 两 字 词 较 少 ; 而 
这 三 个 表 共 有 的 停 用 词 数 量 有 337 个 。 在 实验 中 , 笔 
者 合并 了 三 个 停 用 词 表 作为 一 个 新 的 停 用 词 表 ( 命 名 
为 全 停 用 词 ) 以 测试 停 用 词 表 的 长 度 是 否 也 会 影响 文 
本 聚 类 效果 。 


为 1920 个 , 每 个 文本 至 多 属于 一 个 类 别 ; 其 中 文本 类 #3 停 用 词 表 重 合 词 条 统计 
型 包括 新 闻 、 文 献 、 文 摘 等 , 采用 控制 变量 法 进行 实 Wii Me Be 三 字 词 ”四 字 词 ”共计 
验 测试 , 对 实验 结果 准确 统计 记录 ， 用 于 分 析 比 较 。 百度 -四 川 大 学 22 311 23 19 374 
R1 人 工分 类 文本 统计 表 o 167 288 22 18 493 
aa 一 Si OPR g 276 22 18 338 

文本 数 110 164 76 150 140 滨 工 业 大 学 
百度 -四 川 大 学 - 

2.2” 停 用 词 表 内 容 分 析 全 尔 滨 工业 大 学 7 75 2 Bo o 337 


本 文采 用 的 三 个 停 用 词 表 基本 情况 如 表 2 所 示 。 
表 2 实验 停 用 词 表 内 容 统计 


By Me =F OF | 
词 词 词 Ñ 


停 用 词 表 符号 英文 


百度 7 547 173 620 29 19 0 1395 
四 川 大 学 0 0 26 663 80 84 6 859 
哈尔滨 工 

We 0 167 2 23 19 0 750 
F 


可 以 看 出 , 各 停 用 词 表 的 差异 较 大 ， 百 度 停 用 词 表 
包含 部 分 单字 符 、 英 文 停 用 词 以 及 中 文 停 用 词 ， 如 
“able2 “一 ”以 及 “不 是 "等 , 两 字 词 比例 较 大 ; 四 川 大 学 
停 用 词 表 包含 很 多 常见 俗语 及 三 字 词 、 四 字 词 , 如 “ 打 
开 天 窗 说 亮 话 "“ 何 乐 而 不 为 "以 及 “换言之 "等 , 单字 词 
数量 相对 较 少 ; 而 哈尔滨 工业 大 学 停 用 词 表 则 包含 大 


3 ”实验 结果 展示 


本 次 实验 分 别 固定 待 比 较 的 停 用 词 词 表 , 将 搜狗 
语料库 、 复 旦 文本 语料库 和 中 文 文本 语料库 作为 实验 
数据 进行 文本 聚 类 处 理 , 统计 每 一 复 中 各 类 型 文本 数 
量 ， 以 其 数量 最 多 的 一 类 作为 该 篮 的 正确 文本 类 型 ， 
同时 进行 评价 指标 P、R、F1 的 计算 。 其 中 表 4 至 表 6 
为 三 个 停 用 词 表 处 理 后 的 文本 聚 类 结构 , 表 7 是 将 百 
度 停 用 词 表 之 中 的 英文 停 用 词 去 掉 后 得 到 的 结果 ， 而 
K 8 则 是 应 用 全 停 用 词 表 得 到 的 聚 类 结果 。 
百度 停 用 词 表 实验 结果 统计 
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表 中 , 百度 停 用 词 表 停 用 词 数量 高 达 1 395 个 , 主要 在 
于 其 包含 了 547 个 英文 停 用 词 ; 而 两 字 词 在 三 个 停 用 词 


表 中 比例 较 高 ,其 中 四 川 大 学 停 用 词 表 包含 663 个 两 字 
词 , 显然 是 为 了 能 保证 最 大 程度 匹配 并 去 除 停 用 词 ， 
为 在 中 文 分 词 的 结果 中 大 部 分 都 为 两 字 词 串 史 1。 

表 3 显示 了 三 个 停 用 词 表 的 重合 情况 ,可 以 看 
出 , 这 三 个 停 用 词 表 的 单字 词 、 三 字 词 及 四 字 词 的 重 
合 率 很 高 ， 基 本 达到 80% 以 上 ,因此 三 个 停 用 词 表 的 
区 别 主要 体现 在 两 字 词 上 。 其 中 百度 停 用 词 表 和 四 川 
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ir | 全 : 一 、 平 均值 
HD (ER) (经 济 ) (体育 ) D (EB) 
SH 0.924 0.965 0.930 0.763 0.608 0.838 
H. 
” 0.964 1 0.440 0.963 0.816 0.837 
语料库 
F1 0.944 0.982 0.597 0.851 0.697 0.814 
_ HK SOR Po AWK DUE 
指标 、 ， 平均 值 
me ER) (体育 ) (经 济 ) (军事 ) (ID 
搜狗 P 0.739 0.693 0.615 0.477 0.521 0.609 
ats 0.929 0.813 0.582 0.553 0.445 0.664 
语料库 
Fl 0.823 0.748 0.598 0.512 0.480 0.632 
_ HK SOK PoE AWK DAE 
ue [oe : ~、 平均 
ih (AR) (体育 ) (经 济 ) QT) (军事 ) 平均 什 
中 文 0.882 0.803 0.831 0.817 0.233 0.547 
SeN 0.964 0.600 0.936 0.652 0.368 0.704 
语料库 
Fl 0.921 0.687 0.884 0.725 0.285 0.700 
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表 5 四 川 大 学 停 用 词 表 实验 结果 统计 表 8 全 停 用 词 表 实 验 结果 统计 
_ Se 第 二 做 PHM BIR BTA a ae 
ae i a IR 平均 值 z fk 第 二 簇 第 三 簇 PUR BLIR yy 
oy EP dem) an cea r Go) (经 济 ) (体育 ) (0T) (军事 ) 平均 值 
Pi P 0.907 0.957 0.971 0.963 0.432 0.846 z ae foe s e ae Aa 
语料库 RO 0979 1 0.447 0.976 0.789 0.838 2E e oa i dai doe easy Gee 
FI 0.942 0.978 0.612 0.969 0.558 0.812 语料库 
mg E es FI 0.986 0.982 0.600 0.976 0.576 0.855 
reyes = Bi AY JZ p s Aes ite fete - Ape debs Ay 
EEO Am (艺术 ) (经 济 m (军事 M Gop em Gem de an Te 
P 0.614 0.424 0.743 0.455 0.040 0.455 CEAD CE EE IE) CU 
an R 0.847 0.443 0.555 0.305 0.053 0.441 搜狗 BONE ses. Wee hee: do 0 80 
"FL 0.712 0434 0.640 0.365 0.046 0.439 ue R 0971 0.245 < 0:789: (0.567 0:482. 0:591 
_ eH Ae 第 二 秘 第 sr FI 0.827 0.279 0.588 0.688 0.463 0.586 
w fa oe 2 eee L O O 
(艺术 ) (体育 ) (经 济 ) QT) (军事 ) 指标 Sik 第 二 簇 第 三 簇 第 四 复 第 五 篮 平均 什 
ba P 0.899 0.993 0.644 0.839 0.326 0.740 à (艺术 ) (体育 ) (经 济 ) UT) (军事 ) 
R 0.950 0.893 0.791 0.634 0.421 0.738 P 0.882 0.833 0.831 0.831 0.467 0.769 
z F1 0.924 0.940 0.701 0.740 0.367 0.734 ne R 0.964 0.600 0.936 0.646 0.750 0.779 
Tarr 
表 6 哈尔滨 工业 大 学 停 用 词 表 实验 结果 统计 Fl 0.922 0.698 0.880 0.727 0.576 0.774 
- 第 一 艇 第 二 簇 AHIR BW SIR 
虽 标 S x os aes 平均 
指标 SR (经 济 ) (体育 ) (T) Ew Og 实验 结果 分 析 
P 0.924 0.948 0.943 0.732 0.667 0.843 
语料库 R 0.950 1 0.440 0.970 0.816 0.835 以 上 实验 结果 数据 均 为 直接 统计 计算 所 得 , 为 了 
FL 0.937 0.973 0.600 0.834 0.734 0.816 更 好 地 对 三 个 停 用 词 表 进行 分 析 对 比 , 将 实验 数据 进 
指标 He es se foe 平均 值 TRA, 分别 从 不 同 停 用 词 表 对 同一 文本 类 型 (经 济 、 
eer ae 
Ate) hp 加 困 上 司 信 用 词类 对 同一 庄 闯 
Wi 0.788 1 0.545 0.535 0.092 0.592 军事 等 ) 的 作用 效果 ， 以 及 不 同 停 用 词 表 对 同一 语料库 
Bt R 0.929 0.840 0.382 0.604 0.105 0.572 的 作用 效果 进行 比 对 。 
Fl 0853 0.913 0.449 0.567 0.098 0.576 41 文本 领域 分 析 
指标 “第 一 能 BIR BEIR 第 四 能 第 五 能 平均 信 本 次 实验 数据 涉及 经 济 、IT、 军 事 、 体 育 和 艺术 
E ED (经 济 ) (军事 ) M (体育 raran AcE AENT DLN 
an 0.937 0.438 0.135 0.743 0.605 0.572 n paar 下 固定 售 用 词 une 下 ， 以 三 个 语 料 
ns R 0.950 0.636 0.105 0.793 0.393 0.575 库 作为 实验 数据 ,得 到 不 同 的 聚 类 结果 , 分 别 挑选 出 
Fl 0.943 0.504 0.116 0.767 0.426 0.551 不 同 语料库 中 各 类 型 文本 的 Fl 值 并 求 得 三 者 的 平均 
表 7 百度 去 英文 停 用 词 表 实验 结果 统计 值 ,结果 如 表 9 和 表 10 所 示 。 
epg BO BA BER BIN BARB 二 jy 从 通过 表 10 可 以 看 出 : 
HO (GOR) (经 济 ) (体育 ) (IT (军事 ) (1) 就 这 5 个 领域 的 文本 类 型 来 说 ， 艺 术 类 的 聚 
ga rO OSM 03 类 效果 最 佳 ,而 军事 类 的 聚 类 效果 较 差 , 二 者 的 FI 指 
iz a i s z , . $ = ` = SE Hp ELS yy ` 
da FI 0.944 0.982 0.6 0.851 0.686 0.813 标 值 相差 近 50%, 这 与 军事 类 文本 数量 较 少 有 关 ， 
epg 第 一 能 OIE 第 三 簇 第 四 能 第 五 能 jg 此 在 进行 聚 类 实验 时 , 文本 要 保证 一 定 的 数量 ,才能 
D | n as 、 = ae AURA 7 aes $ 
” EN (体育 ) (经 济 ) (军事 ) (M 够 提取 尽 可 能 准确 的 特征 值 , 构建 更 为 精准 的 特征 向 
搜狗 p 0.929 0.813 0.582 0.539 0.451 0.663 量 避免 在 后 续 实 验 分 析 中 带 来 干扰 : 
R 0.739 0.924 0.615 0.465 0.528 0.654 , Se oan ee 
BL 0823 0.865 0.598 0.499 0.486 0.654 (2) 百度 停 用 词 表 整 体 作用 效果 较 好 , F1 指标 值 
_ PK SOR P= A PAR _ 高 出 其 他 两 个 停 用 词 表 0.049 和 0.069, 而 其 在 经 济 以 
指标 (艺术 ) (体育 ) (经 济 ) m gp PH zx =) BL a 
a EN sil 及 军事 领域 表现 相对 突出 。 百 度 停 用 词 表 中 最 为 突出 
pe OO osoo 0936 0659 的 是 其 拥有 较 多 的 两 字 停 用 词 , 尽管 其 在 数量 上 与 四 
语料库 R 0.882 0.804 0.831 0.824 0.241 0.716 E l a E 
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表 9 各 语料库 与 文本 领域 综合 统计 表 -Fl 值 


文本 类 型 语料库 百度 ”四川 大 学 哈尔滨 工业 大 学 
复旦 语料库 0.982 0.978 0.973 
Aye 搜狗 语料库 0.598 0.640 0.449 
中 文 语料库 0.884 0.701 0.504 
平均 值 0.821 0.773 0.642 
复旦 语料库 0.851 0.969 0.834 
这 搜狗 语料库 0.480 0.365 0.567 
中 文 语料库 0.725 0.740 0.767 
平均 值 0.685 0.691 0.722 
复旦 语料库 0.697 0.558 0.734 
搜狗 语料库 0.512 0.046 0.098 
中文 语料库 0285 0.367 0.116 
平均 值 0.498 0.324 0.316 
复旦 语料库 0.597 0.612 0.600 
体育 搜狗 语料库 0.748 0.712 0.913 
中 文 语 料 库 0.687 0.940 0.426 
平均 值 0.677 0.755 0.646 
复旦 语料库 0.944 0.942 0.937 
ve 搜狗 语料库 0.823 0.434 0.853 
av 中 文 语 料 库 ”0.921 0.924 0.943 
平均 值 0.896 0.767 0.911 


表 10 各 领域 文本 聚 类 平均 Fl 值 


领域 

Fl 经 济 IT ”军事 体育 艺术 平均 值 
停 用 词 表 
百度 0.821 0.685 0.498 0.677 0.896 0.716 
四 川 大 学 0.773 0.691 0.324 0.775 0.767 0.667 
B Are yet 
ihe 0.642 0.722 0.316 0.646 0.911 0.647 
大 学 
平均 值 0.745 0.699 0.379 0.699 0.858 0.676 


大 学 停 用 词 表 ,因此 百度 停 用 词 表 拥 有 较 高 质量 的 两 
字 停 用 词 ， 而 两 字 停 用 词 对 文本 聚 类 的 作用 效果 的 影 
响 最 为 重要 , 所 以 在 构建 新 的 停 用 词 表 时 要 尽 可 能 
地 考虑 两 字 停 用 词 ; 

(3) 哈尔滨 工业 大 学 停 用 词 表 在 IT 类 以 及 艺术 类 
文本 聚 类 中 表现 突出 ,而 四 川 大 学 停 用 词 表 在 体育 类 
文本 聚 类 中 作用 效果 最 好 ; 观察 二 者 内 容 结构 发 现 ， 
哈尔滨 工业 大 学 停 用 词 表 中 包含 其 他 停 用 词 表 较 少 含 
有 的 中 英文 字符 ， 而 四 川 大 学 停 用 词 表 中 包含 较 多 的 
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三 字 、 四 字 停 用 词 , 这些 不 同 的 特征 是 其 作用 效果 不 
同 的 主要 原因 ; 

(4) 在 此 对 不 同 停 用 词 表 适用 的 领域 进行 了 实验 
分 析 , 因此 , 在 构建 各 领域 专用 停 用 词 表 时 ,可 以 依 
据 其 不 同 的 表现 进行 选择 参考 。 
4.2 ”不同 语料库 分 析 

将 同一 语料库 中 不 同文 本 类 型 的 Fl 值 求 和 取 平 
均值 , 得 到 固定 停 用 词 表 对 各 语料库 所 产生 的 不 同 聚 
类 效果 , 整合 结果 如 表 11 和 图 2 所 示 。 

表 11 各 语料库 文本 聚 类 效果 平均 值 


语 料 
Pi 复旦 “搜狗 中 文 平均 值 
停 用 词 表 
百度 0.814 0.632 0.700 0.715 
四 川 大 学 0.812 0.439 0.734 0.662 
哈尔滨 工业 大 学 0.816 0.576 0.551 0.648 
0.9 
0.8 | 
| | = 
0.6 一 图 
0.5 | | | 3 | | 
0.4 | | | | 
a4 g E a 
0 | |] nM E 
o | E 国 加 
SH 搜狗 中 文 平均 值 
加 百度 停 用 词 表 目 四 川 大 学 停 用 词 表 目 哈 尔 滨 工业 大 学 停 用 词 表 


图 2 停 用 词 表 对 于 不 同 语料库 作用 效果 对 比 


可 以 看 到 ,百度 停 用 词 表 对 于 搜狗 语料库 的 作用 
效果 较 好 ， 四 川 大 学 停 用 词 词 表 比 较 适用 于 中 文 文本 
语料库 ,而 哈尔滨 工业 大 学 停 用 词 表 更 适合 于 复旦 文 
本 语料库 。 然 而 同一 停 用 词 表 会 对 不 同 语料库 产生 较 
大 差异 的 聚 类 效果 主要 还 是 取决 于 语料库 中 的 文本 类 
型 ， 如 经 济 、 体 育 等 ,以 及 该 语料库 中 文本 的 主要 形 
式 , 文本 类 型 在 上 文中 已 经 讨论 过 , 将 不 再 考虑 。 

观察 这 三 个 语料库 ,可 以 看 出 , 复旦 语料库 主要 
由 大 量 的 文献 期 刊 组 成 , 包含 少量 新 闻 报 道 评论 ; 搜 
狗 语料库 均 为 各 门户 网 站 的 新 闻 报道 ; 而 中 文 文本 语 
料 库 中 既 有 文献 又 有 新 闻 报 道 , 还 有 一 些 邮件 , 组 
成 较为 复杂 。 初 步 得 出 结论 这 三 个 停 用 词 表 对 文献 期 
刊 类 文本 的 作用 效果 较 好 ,而 哈尔滨 工业 大 学 更 胜 一 
Fe, 对 于 新 闻 报 道 类 的 文本 ,百度 停 用 词 表 的 优势 较 
大 ,四 川 大 学 停 用 词 表 作用 效果 较 差 . 其 更 适合 邮件 


文献 等 类 型 的 文本 。 

结合 4.1 节 与 4.2 节 实 验 , 笔者 进行 如 下 总 结 : 

(1) 去 停 用 词 作为 文本 处 理 的 中 间 环 节 ， 具 有 至 
关 重 要 的 作用 ， 其 上 一 环节 为 中 文 分 词 ， 分 词 的 结果 
关乎 停 用 词 的 匹配 ， 如 “近年 来 ”可 以 切 分 为 “近年 ” 
和 “来 ” 也 可 直接 切 分 为 “近年 来 ” 若 按 第 一 种 切 分 


从 表 12 可 以 看 出 ,斜体 标注 的 几 个 语料库 聚 类 
的 结果 不 受 是 否 去 除 英 文 停 用 词 的 影响 ,原因 是 这 几 
个 语 料 样 本 基本 不 含 英文 词汇 。 而 加 粗 显示 的 几 个 语 
料 库 聚 类 的 结果 在 去 除 英 文 停 用 词 后 略 有 上 升 ， 其 他 
几 个 语 料 样本 的 聚 类 结果 则 略 有 下 降 ,， 分 析 其 文本 ， 
原因 在 于 以 IT 类 文本 为 例 , 经 常会 出 现 计算 机 领域 的 


方法 , 这 三 个 停 用 词 表 均 可 顺利 去 除 停 用 词 ， 而 知 按 
照 第 二 种 则 仅 有 四 川 大 学 停 用 词 表 可 顺利 去 除 ， 因 为 
其 含有 这 个 三 字 停 用 词 ， 因 此 , 在 构建 停 用 词 表 时 ， 
要 考虑 到 尽 可 能 多 的 情况 , 才能 够 最 大 程度 地 匹配 不 
同 分 词 方法 的 处 理 结果 ; 

(2) 去 除 停 用 词 后 的 步骤 为 特征 向 量 提 取 ， 而 去 
除 停 用 词 也 是 为 了 在 最 大 程度 表现 文本 主题 的 前 提 下 
去 除 无 用 词语 ,降低 特征 向 量 的 维度 。 不 同 停 用 词 表 
对 于 不 同 语料库 的 作用 效果 不 同 ,， 主要 在 于 各 停 用 词 
表 构 建 时 采用 的 是 不 同 的 语料库 ， 因 此 ,在 针对 不 同 
语料库 进行 文本 聚 类 时 ,选取 与 该 语料库 来 源 相 近 的 
停 用 词 表 会 取得 更 好 的 效果 , 由 此 推广 , 在 构建 专用 
停 用 词 时 , 要 选取 包含 大 量 领 域 文 本 的 语料库 。 
4.3 百度 停 用 词 表 去 除 英 文 停 用 词 结 果 分 析 

由 于 百度 停 用 词 表 中 包含 大 量 的 英文 单词 ,而 实 
验 语料库 均 为 中 文 文本 ,因此 本 次 实验 过 程 中 , 去 除 
停 用 词 表 中 的 英文 单词 ， 并 与 原 实验 结果 进行 对 比 ， 
结果 如 表 12 所 示 。 

表 12 百度 停 用 词 表 对 比 结果 


文本 类 型 语料库 百度 百度 (去 英文 ) 

KE AGERE 0.982 0.982 

经 济 LEM IE A E 0.598 0.598 
中 文 语料库 0.884 0.880 

KE AGERE 0.851 0.851 

IT 搜狗 语料库 0.480 0.486 
中 文 语料库 0.725 0.732 

复旦 语料库 0.697 0.686 

军事 搜狗 语料库 0.512 0.499 
中 文 语料库 0.285 0.300 

复旦 语料库 0.597 0.600 

体育 搜狗 语料库 0.748 0.865 
PURE 0.687 0.687 

KE AGERE 0.944 0.944 

艺术 LEG TEE 0.823 0.823 
PRIJE 0.921 0.921 


单词 或 字母 ,可 以 作为 特征 向 量 用 于 表征 文本 ， 如 果 
去 除 则 会 降低 聚 类 效果 的 准确 性 ; 而 通过 观察 军事 类 
文本 ， 其 中 部 分 文本 包含 无 用 的 英文 单词 ,去 除 之 后 
使 得 特征 向 量 更 加 准确 ,提升 了 上 聚 类 效果 。 总 体 看 来 ， 
这 些 样 本 中 英文 词汇 的 比例 较 低 , 且 经 常 在 文本 中 有 
特 指 意义 ,建议 在 去 除 停 用 词 时 无 需 考 虑 英文 停 用 词 
的 去 除 。 
44 全 停 用 词 表 结果 分 析 

将 三 个 不 同 停 用 词 表 整合 为 一 个 全 停 用 词 表 , 并 
将 其 用 于 聚 类 实验 ,同时 ,抽取 三 个 停 用 词 表 聚 类 效 
果 的 最 优 值 与 之 进行 对 比 , 结果 如 表 13 所 示 。 

表 13 全 停 用 词 表 对 比 结果 


文本 类 型 语料库 最 优 值 全 停 用 词 表 

复旦 语料库 0.982 0.982 

经 济 搜狗 语料库 0.598 0.279 

中 文 语料库 0.884 0.880 

平均 值 0.821 0.713 

复旦 语料库 0.834 0.976 

it 搜狗 语料库 0.567 0.463 

中 文 语料库 0.767 0.727 

平均 值 0.722 0.722 

复旦 语料库 0.697 0.576 

军事 搜狗 语料库 0.512 0.588 

中 文 语料库 0.285 0.576 

平均 值 0.498 0.580 

复旦 语料库 0.612 0.600 

体育 搜狗 语料库 0.712 0.688 

5 中 文 语料库 0.940 0.698 

平均 值 0.755 0.622 

复旦 语料库 0.937 0.986 

yaks 搜狗 语料库 0.853 0.827 
艺术 an, 

中 文 语料库 0.943 0.922 

平均 值 0.911 0.912 


可 以 看 出 ,融合 了 三 个 停 用 词 表 的 全 停 用 词 表 聚 
类 效果 相 比 单个 停 用 词 表 的 聚 类 效果 提升 较 大 , 但 将 
其 与 各 停 用 词 表 聚 类 效果 最 佳 的 文本 类 型 结果 相 比 
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较 , 其 优势 并 不 明显 , 仅 在 军事 类 文本 中 提升 了 
0.082， 而 在 经 济 及 体育 类 文本 中 下 降 了 0.108 和 
0.133, 下 降幅 度 较为 明显 ， 其余 类 型 基本 保持 不 变 。 
事实 说 明 , 停 用 词 表 并 不 是 包含 的 停 用 词 越 多 越 好 ， 
而 是 具有 针对 性 比较 好 , 并 且 能 够 针对 文本 已 有 信息 ， 
如 文本 来 源 、 文 本 可 能 包含 的 类 型 去 优化 停 用 词 表 。 


5 结 语 


通过 对 三 个 停 用 词 表 具体 内 容 进行 比较 分 析 , 可 
以 看 出 各 停 用 词 表 的 差异 较为 明显 ， 主 要 体现 在 两 字 
词语 上 ， 其 在 内 容 及 数量 上 有 显著 差异 , 这 三 者 的 不 
同 源 于 其 源 语料库 及 应 用 范围 不 同 ; 而 在 具体 的 实验 
分 析 中 发 现 , 不 同 停 用 词 表 的 使 用 对 于 聚 类 效果 影响 
的 差异 是 较为 显著 的 , 综合 比较 ， 百度 停 用 词 表 对 于 
三 个 语料库 的 平均 作用 效果 最 佳 , 去除 英文 词 的 百度 
停 用 词 表 聚 类 效果 略 有 提升 。 三 个 不 同 停 用 词 表 对 于 
艺术 类 文本 的 作用 效果 均 高 于 其 他 类 别 ， 而 对 于 军事 
类 均 没 有 起 到 很 好 的 效果 , 且 全 停 用 词 表 并 不 能 在 聚 
类 过 程 中 取得 最 佳 的 效果 , 反而 会 在 一 定 程度 上 降低 
聚 类 的 精准 度 。 因 此 , 在 处 理 具体 聚 类 任务 的 时 候选 
取 准 确 适 合 的 停 用 词 表 是 十 分 重要 的 ， 如 果 能 够 按 需 
构建 专业 停 用 词 表 或 者 构建 出 更 为 全 面 的 通用 停 用 词 
K, 效果 会 更 佳 , 这 也 是 日 后 研究 的 主要 方向 ,在 本 次 
对 比 实验 中 , 也 存在 一 些 不 足 ， 如 实验 文本 数量 较 少 ， 
可 能 会 导致 实验 结果 的 偶然 性 ; 聚 类 方法 单一 , 仅 采 
用 K-means 算法 , 不 能 排除 算法 对 实验 结果 的 影响 ; 
而 对 于 停 用 词 表 作用 的 研究 , 未 考虑 按照 停 用 词 的 类 
别 进行 分 类 处 理 , 在 后 续 的 研究 中 将 针对 这 些 不 足 加 
以 改进 。 
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Chinese Stopwords for Text Clustering: A Comparative Study 


Guan Qin Deng Sanhong Wang Hao 
(School of Information Management, Nanjing University, Nanjing 210023, China) 
(Jiangsu Key Lab of Data Engineering and Knowledge Service, Nanjing 210023, China) 


Abstract: [Objective] This paper compares and analyzes the impacts of stopwords on textual data processing, aiming 
to improve the construction and use of stopwords. [Methods] We obtained stopword lists from Baidu Search Engine, 
Harbin Institute of Technology and the Machine Learning Laboratory of Sichuan University for this study. First, we 
processed text message with the stopword lists and Chinese word segmentation technique, the TF-IDF feature 
evaluation function and the VSM vector model. Secondly, we analysed the texts with the K-means algorithm to 
calculate the P, R and F1 values. [Results] Different stopword lists posed various effects to the text data processing 
tasks. The length of the list and the content structure of the texts directly influenced the clustering results. More 
importantly, the two-character stopwords was the biggest factor. [Limitations] The text types and quantity were limited. 
More research is needed to analyze the text with different types of stop words. [Conclusions] Stopword list poses 
significant impacts on text clustering, thus, it is extremely important to build or choose the appropriate Chinese 
stopword list. However, excessively increasing the number of stop words might not always improve the clustering 
results. 


Keywords: Text Clustering Stopword List K-means 
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